【NLTK基础教程】01-02 利用nltk统计词频

在上篇中,简单的介绍了三种获取有效文本的方法,那么接下来就利用nltk来统计这些文本中出现的次数。

我们首先来看下传统统计词频的方法:

import operator
freq_dis={}
for tok in tokens:
    if tok in freq_dis:
        freq_dis[tok]+=1
    else:
        freq_dis[tok]=1

sorted_freq_dist=sorted(freq_dis.items(),key=operator.itemgetter(1),reverse=True)
print(sorted_freq_dist[:25])

统计结果如下:

[('Python', 59), ('>>>', 24), ('the', 21), ('and', 21), ('to', 17), ('is', 17), ('of', 17), ('=', 14), ('for', 11), ('News', 11), ('Events', 11), ('a', 10), ('#', 9), ('More', 9), ('3', 8), ('in', 8), ('with', 7), ('Community', 7), ('...', 7), ('Docs', 6), ('Guide', 6), ('Software', 6), ('The', 5), ('1', 5), ('that', 5)]

利用nltk来统计文本词频如下:

import nltk
Freq_dist_nltk=nltk.FreqDist(tokens)
print(Freq_dist_nltk)
for k,v in Freq_dist_nltk.items():
    print(str(k)+":"+str(v))
Freq_dist_nltk.plot(50,cumulative=False)

相比之下,利用nltk库来实现,确实便利了很多。
image
好吧,《NLTK基础教程》第一章基本上就结束了,这一章主要是简单介绍了python的语法,然后引出NLTK。


文章作者: IrvingBei
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 IrvingBei !
评论
 上一篇
【NLTK基础教程】02  何为文本歧义 【NLTK基础教程】02 何为文本歧义
文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。好吧,书中将文本歧义定义为数
下一篇 
【NLTK基础教程】01-1 三种获取网页中有效文本的方法 【NLTK基础教程】01-1 三种获取网页中有效文本的方法
本篇是《NLTK基础教程》第一章的第三节,向NLTK迈进中的一个例子,获取网页中的文本的三种方法。 1 抓取网页这里主要是用了urllib库中的函数来抓取指定网页,代码如下: import urllib.request response=u
  目录